爬取11088个知乎专栏,打破发现壁垒
作者:Deserts_X
用python爬虫玩点好玩的;用可视化看见不一样的内容。
个人公众号: 牛衣古柳(ID:Deserts-X)
简书:http://www.jianshu.com/u/105b6cd74e7e
去UC是不可能去UC的,这辈子都不可能去UC的。——Deserts_X
一、前言
上回我用Gephi绘制了知乎374名10万+关注的大V间相互关注情况,因为涉及25090条关注数据,最后成果图不算理想,但也能简单窥见大V生态圈的面貌,详情见于:《374名10万+知乎大V(一):相互关注情况》。
论理这回应该继续对374名10万+大V、4151名1万+小V进行研究,写作(二)、(三)等系列文章,那到底为什么不填坑,而搞了这个爬知乎专栏的项目呢?
二、痛点
本专栏Data Analysis & Viz开通50来天,关注人数不知不觉也快有666人了,很好奇关注我或专栏的用户都有谁,他们有哪些共同点,还关注了哪些类似主题的专栏......
前两个问题倒是很好解决,只需爬取关注列表,分析下用户信息,也就心里有数了;但知乎上有多少类似主题的优质专栏,却是个不好回答的问题。
原先一直以为知乎有搜索专栏的地方,找了半天发现下面的网页后,以为捡到宝了,立马写个爬虫,翻页10000次,美滋滋地等着拿数据,却发现最后到手的有效专栏数才313个,用《红楼梦》的话说,这个网站“原来苗而不秀,是个银样镴枪头”,是个中看不中用的主。
继续寻寻觅觅后,发现个人主页有两处专栏相关的入口:一个是自己的专栏,一个是关注的专栏。于是决定以后者为入口,用上回获取的30多万用户ID,爬取各自关注的专栏,从而得到知乎专栏的数据。
有了入口和思路,之后就是写代码和爬取的事了,不在话下。
@Ricky,2015年在《知乎都有哪些值得推荐的专栏?》 话题下提到:“专栏除了在时间线被关注用户点赞或者关注的情况外,是没有一个发现频道的。也就是说知乎团队希望专栏还是以一种去中心化的形态去发展。”
现在依旧如此,去中心化的形式就是上述痛点的来源。
三、专栏情况
3.1 数据一览
最终得到11088条知乎专栏数据,格式如下,作者为机构号的专栏特别标注出来:
3.2 文章数与粉丝数
所有专栏的文章数与粉丝数情况如下,粉丝数30万+的第一梯度有:女神进化论、知乎电子书、硬派健身;20万+的有:张佳玮写字的地方、潜台词。文章数1500+的有:最美应用 | 有价值的好应用、知识市场编辑推荐、扑克投资家、游戏茶馆。
3.3 TOP100
粉丝数排名TOP100专栏的门槛为40814人(“如何认真地活着”)。TOP100专栏总计8261681人次关注,占全部11088个专栏总关注31262218人次的26.4%,而TOP27专栏的关注人次占到TOP100的一半。
全部专栏的平均粉丝数为2819人(拖后腿了),中位数为432人。前393个专栏总计关注人次超过全部专栏的一半。
3.4 TOP20
“数据冰山”专栏两个月前曾对TOP20专栏进行分析:《知乎Top20专栏用户的那些事》、上文提到的《知乎都有哪些值得推荐的专栏?》一文也有2015年的TOP20专栏名单,三者比较后,发现部分专栏地位稳固,“你大爷依旧是你大爷!”
3.5 机构号
在上万的专栏里有191个系机构号所创建,请下图的相关人员支付广告费!否则,我将用三十年修炼的、集一阳指和狮吼功于一体的神功,give you color to see see!顶部和底部没显示完整的可以半折。
3.6 假的图表
原本以为上文数据一览里时间栏是专栏的开通时间,于是绘制了下各年份的情况。之后才发现这部分应该是爬虫入口的用户关注专栏的时间,似乎啥也说明不了......不管了,聪明的人看不到这张图!
四、未完
由于篇幅原因,具体数据分析、挖掘、python、爬虫、机器学习等方向的优质专栏,会在下一篇文章里给出史上最全合集,敬请期待。
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
1.崔老师爬虫实战案例免费学习视频。
2.丘老师数据科学入门指导免费学习视频。
3.陈老师数据分析报告制作免费学习视频。
4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。
5.丘老师Python网络爬虫实战免费学习视频。